我们提出了世界价值函数(WVFS),这是一种面向目标的一般价值函数,它代表了如何不仅要解决给定任务,还代表代理环境中的任何其他目标任务。这是通过将代理装备内部目标空间定义为经历终端过渡的所有世界状态来实现的。然后,代理可以修改标准任务奖励以定义其自己的奖励功能,事实证明,它可以驱动其学习如何实现所有可触及的内部目标,以及在当前任务中的价值。我们在学习和计划的背景下展示了WVF的两个关键好处。特别是,给定有学习的WVF,代理可以通过简单地估计任务的奖励功能来计算新任务中的最佳策略。此外,我们表明WVF还隐式编码环境的过渡动力学,因此可以用于执行计划。实验结果表明,WVF可以比常规价值功能更快地学习,而它们的推断环境动态的能力可用于整合学习和计划方法以进一步提高样本效率。
translated by 谷歌翻译
顺序决策的两种常见方法是AI计划(AIP)和强化学习(RL)。每个都有优点和缺点。 AIP是可解释的,易于与象征知识集成,并且通常是有效的,但需要前期逻辑域的规范,并且对噪声敏感; RL仅需要奖励的规范,并且对噪声是强大的,但效率低下,不容易提供外部知识。我们提出了一种综合方法,将高级计划与RL结合在一起,保留可解释性,转移和效率,同时允许对低级计划行动进行强有力的学习。我们的方法通过在AI计划问题的状态过渡模型与Markov决策过程(MDP)的抽象状态过渡系统(MDP)之间建立对应关系,从而定义了AIP操作员的分层增强学习(HRL)的选项。通过添加内在奖励来鼓励MDP和AIP过渡模型之间的一致性来学习选项。我们通过比较Minigrid和N房间环境中RL和HRL算法的性能来证明我们的综合方法的好处,从而显示了我们方法比现有方法的优势。
translated by 谷歌翻译